最近,深增强学习(DRL)方法在各种域中的任务方面取得了令人印象深刻的性能。然而,用DRL方法产生的神经网络政策不是人为可解释的,并且通常难以推广到新颖的情景。为了解决这些问题,事先作品探索学习更具可诠释和构建的概括的程序政策。然而,这些作品要么采用有限的政策表示(例如,决策树,状态机或预定义的程序模板)或需要更强的监督(例如输入/输出状态对或专家演示)。我们提出了一个框架,而是学习合成一个程序,该程序详细介绍了以灵活和表现力的方式解决任务的过程,仅来自奖励信号。为了减轻学习难以从头开始诱发所需的代理行为的难度,我们建议首先了解一个程序嵌入空间,以不传达的方式连续参加各种行为,然后搜索嵌入空间以产生程序最大化给定任务的返回。实验结果表明,所提出的框架不仅可以可靠地综合任务解决方案,而且在产生可解释和更广泛的政策的同时优于DRL和程序合成基线。我们还可以证明所提出的两级学习计划的必要性,并分析了学习计划嵌入的各种方法。
translated by 谷歌翻译
Recent work has shown that large language models are capable of generating natural language reasoning steps or Chains-of-Thoughts (CoT) to answer a multi-step question when prompted to do so. This is insufficient, however, when the necessary knowledge is not available or up-to-date within a model's parameters. A straightforward approach to address this is to retrieve text from an external knowledge source using the question as a query and prepend it as context to the model's input. This, however, is also insufficient for multi-step QA where \textit{what to retrieve} depends on \textit{what has already been derived}. To address this issue we propose IRCoT, a new approach that interleaves retrieval with CoT for multi-step QA, guiding the retrieval with CoT and in turn using retrieved results to improve CoT. Our experiments with GPT3 show substantial improvements in retrieval (up to 22 points) and downstream QA (up to 16 points) over the baselines on four datasets: HotpotQA, 2WikiMultihopQA, MuSiQue, and IIRC. Notably, our method also works well for much smaller models such as T5-Flan-large (0.7B) without any additional training.
translated by 谷歌翻译
基于姿势的动作识别主要是通过以整体化处理输入骨骼的方法来解决的,即姿势树中的关节是整体处理的。但是,这种方法忽略了这样一个事实,即行动类别通常以局部动力动力学为特征,这些动力动力学仅涉及涉及手(例如“竖起大拇指”)或腿部(例如``踢'')的零件联合组的小子集。尽管存在基于部分组的方法,但在全球姿势框架内并未考虑每个部分组,从而导致这种方法缺乏。此外,常规方法采用独立的方式流(例如关节,骨,关节速度,骨速度),并在这些流中多次训练网络,从而大大增加了训练参数的数量。为了解决这些问题,我们介绍了PSUMNET,这是一种新颖的方法,用于可扩展有效的基于姿势的动作识别。在表示级别,我们提出了一种基于全球框架的部分流方法,而不是基于常规模态流。在每个部分流中,从多种模式的相关数据被处理管道统一和消耗。在实验上,PSumnet在广泛使用的NTURGB+D 60/120数据集和密集的关节骨架数据集NTU 60-X/120-X上实现了最先进的性能。 PSUMNET高效,优于竞争方法,使用100%-400%的参数。 PSUMNET还概括为具有竞争性能的SHREC手势数据集。总体而言,PSUMNET的可伸缩性,性能和效率使其成为动作识别以及在Compute限制的嵌入式和边缘设备上部署的吸引人选择。可以在https://github.com/skelemoa/psumnet上访问代码和预算模型
translated by 谷歌翻译
对自我监督学习(SSL)的最新分析发现,以下以数据为中心的属性对于学习良好表示至关重要:对任务 - 无关紧要的语义的不变性,在某些潜在空间中的类别可分离性以及从增强样品中可恢复标签的类别。但是,鉴于它们的离散,非欧成功的性质,图形数据集和图SSL方法不太可能满足这些属性。这提出了一个问题:如何绘制SSL方法(例如对比度学习(CL))如何工作?为了系统地探究这个问题,我们在使用通用图扩展(GGAS)时对CL进行概括分析,重点是以数据为中心的属性。我们的分析对GGA的局限性以及与任务相关的增强的必要性产生了正式见解。正如我们经验表明的那样,GGA不会在共同基准数据集上引起与任务相关的不变性,这只会导致对天真的,未经训练的基线的边际收益。我们的理论激发了合成数据生成过程,该过程能够控制与任务相关的信息并拥有预定义的最佳增强。这种灵活的基准测试有助于我们确定高级增强技术(例如自动化方法)中未认可的限制。总体而言,我们的工作在经验和理论上都严格地对以数据为中心的属性对图形SSL的增强策略和学习范式的影响进行了严格的背景。
translated by 谷歌翻译
虽然直接进行微调(FT)大规模调查,但在特定于任务数据上进行了预定的模型,众所周知,可以引起强大的分配任务绩效,但最近的作品表明,不同的适应协议,例如线性探测(LP),例如线性探测(LP) ft,可以改善分布的概括。但是,此类适应协议的设计空间仍未探索,并且对此类协议的评估主要集中在分配转移上。因此,在这项工作中,我们评估了跨分布转移和机器学习安全指标(例如,异常检测,校准,对腐败的鲁棒性)的共同适应协议。我们发现协议引起了不同的权衡,这些权衡从事先评估中显而易见。此外,我们证明,适当的数据增强和协议可以大大减轻这种权衡。最后,我们假设并从经验上看到,在LP期间使用促进硬度的增强功能,然后使用增强功能对ft进行ft可能对缓解折衷尤其有效。
translated by 谷歌翻译
人们的个人卫生习惯在每日生活方式中照顾身体和健康的状况。保持良好的卫生习惯不仅减少了患疾病的机会,而且还可以降低社区中传播疾病的风险。鉴于目前的大流行,每天的习惯,例如洗手或定期淋浴,在人们中至关重要,尤其是对于单独生活在家里或辅助生活设施中的老年人。本文提出了一个新颖的非侵入性框架,用于使用我们采用机器学习技术的振动传感器监测人卫生。该方法基于地球通传感器,数字化器和实用外壳中具有成本效益的计算机板的组合。监测日常卫生常规可能有助于医疗保健专业人员积极主动,而不是反应性,以识别和控制社区内潜在暴发的传播。实验结果表明,将支持向量机(SVM)用于二元分类,在不同卫生习惯的分类中表现出约95%的有希望的准确性。此外,基于树的分类器(随机福雷斯特和决策树)通过实现最高精度(100%)优于其他模型,这意味着可以使用振动和非侵入性传感器对卫生事件进行分类,以监测卫生活动。
translated by 谷歌翻译
对于任何游戏人工智能任务,包括游戏玩法,测试,玩家建模和程序内容生成,访问准确的游戏状态信息至关重要。自我监督的学习(SSL)技术已证明能够从游戏的高维像素输入到压缩潜在表示中从高维的像素输入中推断出准确的游戏状态信息。对比度学习是SSL的流行范式之一,其中对游戏图像的视觉理解来自与简单图像增强方法定义的不同和类似的游戏状态。在这项研究中,我们介绍了一种新的游戏场景增强技术(名为GameClr),该技术利用游戏引擎来定义和综合不同游戏状态的特定,高度控制的效果图,从而提高了对比性学习表现。我们在Carla驱动模拟器环境的图像上测试了GAMECLR对比度学习技术,并将其与流行的SIMCLR基线SSL方法进行比较。我们的结果表明,与基线相比,GAMECLR可以更准确地从游戏录像中推断游戏的状态信息。引入的方法使我们能够通过直接利用屏幕像素作为输入来进行游戏人工智能研究。
translated by 谷歌翻译
30天的医院再入院是一个长期存在的医疗问题,会影响患者的发病率和死亡率,每年造成数十亿美元的损失。最近,已经创建了机器学习模型来预测特定疾病患者的住院再入院风险,但是不存在任何模型来预测所有患者的风险。我们开发了一个双向长期记忆(LSTM)网络,该网络能够使用随时可用的保险数据(住院访问,门诊就诊和药物处方)来预测任何入院患者的30天重新入选,无论其原因如何。使用历史,住院和入院后数据时,表现最佳模型的ROC AUC为0.763(0.011)。 LSTM模型显着优于基线随机森林分类器,表明了解事件的顺序对于模型预测很重要。与仅住院数据相比,与住院数据相比,将30天的历史数据纳入也显着改善了模型性能,这表明患者入院前的临床病史,包括门诊就诊和药房数据是重新入院的重要贡献者。我们的结果表明,机器学习模型能够使用结构化保险计费数据以合理的准确性来预测住院再入院的风险。由于可以从网站中提取计费数据或同等代理人,因此可以部署此类模型以识别有入院风险的患者,或者分配更多可靠的随访(更近的后续后续,家庭健康,邮寄药物) - 出院后风险患者。
translated by 谷歌翻译
人类机器人的互动,其中具有一定级别的自治水平的机器人与人类相互作用以实现特定目标,这已经取得了许多最新进展。随着自主机器人的引入以及在不久的将来广泛使用人们的可能性,至关重要的是,人类在与它们互动的同时了解机器人的意图,因为这将促进人类机器人信任的发展。近年来,研究人员引入了对信任的新概念化,将人类机器人互动的信任视为多维性质。归因于信任的两个主要方面是绩效信任和道德信任。我们旨在设计一个实验,以调查搜索和救援场景中侵犯性能违法和道德信任的后果。我们想看看是否有两个类似的机器人失败,一种是由侵犯性能违规而引起的,另一种是由道德信任违规引起的,对人类的信任产生了明显的影响。除此之外,我们计划开发一个界面,使我们能够调查将界面的模式从网格世界情景(2D环境)变为现实模拟(3D环境)是否会影响人类对任务的看法和机器人故障的影响关于人类的信任。
translated by 谷歌翻译
递归是有限地描述潜在无限物体的基本范例。由于最先进的强化学习(RL)算法无法直接推理递归,因此他们必须依靠从业者的创造力来设计适当的“平坦”环境代表。由此产生的手动特征结构和近似值繁琐且容易出错。他们缺乏透明度会阻碍可伸缩性。为了克服这些挑战,我们开发了能够在被描述为Markov决策过程集合(MDP)的环境中计算最佳策略的RL算法,这些算法可以递归调用。每个成分MDP的特征是几个进入点和出口点,与这些调用的输入和输出值相对应。这些递归的MDP(或RMDPS)与概率下降系统(呼叫堆栈扮演起作用堆栈的角色)相同,并且可以用递归程序性调用对概率程序进行建模。我们介绍了递归Q学习 - RMDPS的无模型RL算法 - 并证明它在轻度假设下会收敛于有限的,单位和确定性的多EXIT RMDP。
translated by 谷歌翻译